請使用網站 https://exbert.net/exBERT.html 及模型 [bert-based-cased] 分析以下句子:
The police officer is popular with the residents because she is very generous and kind.
對於模型中12層,每層中的第12個attention head (i.e. layer 1 head 12, layer 2 head 12, layer 3 head 12, …, layer 12 head 12),下列哪一個功能可能存在?
Choice 1 of 5:Attend to the same token
Choice 2 of 5:Attend to special token
Choice 3 of 5:Attend to the next token
Choice 4 of 5:Attend to the period (句號)
Choice 5 of 5:Attend to the previous token
Ans: 以上都是
請使用網站 https://exbert.net/exBERT.html 及模型 [bert-based-cased] 分析以下句子:
The police officer is popular with the residents because she is very generous and kind.
在 [officer] 一字被蓋掉,換成 [MASK] token 的情況下,搜尋 [Wizard of Oz] 中與 [MASK] 最相似的embedding。請問模型從哪一層開始成功預測被蓋掉的字的詞性?(成功預測的定義是50個字中最常出現的詞性與被蓋掉的字詞性相同)
Ans: Layer 12
請使用網站 https://exbert.net/exBERT.html 及模型 [bert-based-cased] 分析以下句子:
The police officer is popular with the residents because she is very generous and kind.
當句子中的 [she] 被蓋掉,模型在蓋掉的地方預測哪一個字?
Ans: she
在句子中的 [she] 被蓋掉的情況下,如果把句子中的 [officer] 也蓋掉,在 [she] 的位置預測 [he] 的機率減少了多少?
Ans: 0.81
請使用網站 https://exbert.net/exBERT.html 及模型 [bert-based-cased] 分析以下句子:
The police officer is popular with the residents because she is very generous and kind.
下列哪一個attention head可能有指代消解的功能?
Ans: Layer 5 head 10